智能论文笔记

这项研究提供了对僧伽罗文本分类的预训练语言模型的性能的首次全面分析。我们测试了一组不同的Sinhala文本分类任务，我们的分析表明，在包括Sinhala（XLM-R，Labse和Laser）的预训练的多语言模型中，XLM-R是迄今为止Sinhala文本的最佳模型分类。我们还预先培训了两种基于罗伯塔的单语僧伽罗模型，它们远远优于僧伽罗的现有预训练的语言模型。我们表明，在微调时，这些预训练的语言模型为僧伽罗文本分类树立了非常强大的基线，并且在标记数据不足以进行微调的情况下非常强大。我们进一步提供了一组建议，用于使用预训练的模型进行Sinhala文本分类。我们还介绍了新的注释数据集，可用于僧伽罗文本分类的未来研究，并公开发布我们的预培训模型。

translated by 谷歌翻译

我们提出了一种新颖的少量射击动作识别框架，它增强了特定于类特征的特征歧视性，同时学习高阶时间表示。我们的方法的重点是一种新的时空浓缩模块，可以使用专用的本地补丁级别和全局帧级别富集子模块聚合空间和时间上下文。本地补丁级别的浓缩捕获了基于外观的动作特征。另一方面，全局帧级富集明确地编码了广泛的时间上下文，从而随着时间的推移捕获相关对象特征。然后利用产生的时空富集的表示来学习查询和支持动作子序列之间的关系匹配。我们在补丁级丰富的功能上进一步引入了查询类相似性分类器，通过在所提出的框架中加强特征学习来增强特定于类的特征歧视性。实验是在四次拍摄动作识别基准测试中执行：动力学，SSV2，HMDB51和UCF101。我们广泛的消融研究揭示了拟议贡献的好处。此外，我们的方法在所有四个基准上设置了一种新的最先进的。在挑战SSV2基准测试中，与文献中的最佳现有方法相比，我们的方法在分类准确性中实现了3.5％的绝对增益。我们的代码和型号将公开发布。

translated by 谷歌翻译

OW-DETR: Open-world Detection Transformer

Akshita Gupta , Sanath Narayan , K J Joseph , Salman Khan , Fahad Shahbaz Khan , Mubarak Shah

分类：计算机视觉

2021-12-02

开放世界对象检测（OWOD）是一个具有挑战性的计算机视觉问题，其中任务是检测一组已知的对象类别，同时识别未知对象。此外，该模型必须逐步学习在下一个培训集中所知的新类。不同于标准对象检测，OWOD设置会对在潜在的未知物体上生成质量候选建议的质量挑战，将未知物体与背景中的未知物体分开并检测不同的未知物体。在这里，我们介绍了一种新的基于端到端的变换器的框架OW-DETR，用于开放世界对象检测。建议的OW-DETR包括三个专用组成部分，即注意力驱动的伪标签，新颖性分类和对象评分，以明确地解决上述OWOD挑战。我们的OW-DETR明确地编码了多尺度上下文信息，具有较少的归纳偏差，使得从已知类传输到未知类，并且可以更好地区分未知对象和背景之间。综合实验是对两个基准进行的：MS-Coco和Pascal VOC。广泛的消融揭示了我们拟议的贡献的优点。此外，我们的模型优于最近引入的OWOD方法矿石，绝对增益在MS-Coco基准测试中的未知召回方面的1.8％至3.3％。在增量对象检测的情况下，OW-DETR以Pascal VOC基准上的所有设置优于最先进的。我们的代码和模型将公开发布。

translated by 谷歌翻译